Linux系统宕机故障排查及原因分析 | 您所在的位置:网站首页 › linux 停机 › Linux系统宕机故障排查及原因分析 |
一、故障描述
突然发现某云主机无法ssh,业务线宕机,虽然主机处于开机状态,但是管理console VNC无法连入,无法ping通地址,云主机被判定为宕机。 二、排查过程1)查看宕机记录 last -F |grep carsh last reboot //查看主机起来的时间2)访问/var/logmessage日期查看宕机前的系统日志,查看是否有告警信息,根据告警信息具体检查
发现报错: kernel: NMI watchdog: BUG: soft lockup - CPU#3 stuck for 23s! [RapidStor:12509] kernel: NMI watchdog: BUG: soft lockup - CPU#5 stuck for 23s! [RapidStor:12515] 上述报错意味着 Linux 内核处理一个任务的时间太长而无法处理内核空间中的其他任务。watchdog守护程序监视此事件并在登录屏幕和 /etc/messages 中通知用户。
3)查看dmesg查看内核日志 cat /proc/version_signature //确认内核版本,输出如下 Ubuntu 4.4.0-150.176-generic 4.4.1794)查看/var/log/secure查看安全日志判断是否有人恶意攻击服务器 secure里没有明显异常,同样有message里关于soft lockup的报错。 5)查看pci: 执行:lspci -vnvn 查看IO性能: yum -y install iotop sysstat #安装必要的监控IO的工具,即iotop和iostat $ iostat -kx 2 $ vmstat 2 10 //一个参数是采样的时间间隔数,单位是秒,第二个参数是采样的次数; |
CopyRight 2018-2019 实验室设备网 版权所有 |